data2vec論文 2.Related work
SSL in computer vision
第1段落
トップレイヤーだけの代わりに、私たち(data2vec)は複数のニューラルネットワークレイヤーの表現に立ち戻る
第2段落:具体的なモデルに言及
SSL in NLP
第1段落
進んでいる自然言語理解において、事前学習は非常に成功している
支配的なモデル:BERT
マスク予測タスク
残りの入力から予測するため、入力トークンのいくつかを空欄となる
(次文予測はここでは言及されず。RoBERTaではやっていない)
小さいサイズのBERTスタイルモデルを得るため、事前学習とファインチューニングの両方について、知識蒸留の研究もある
第2段落
data2vecは具体的な言語トークンを予測せず、連続的で文脈に応じた表現を予測する
BERTなどの先行研究は具体的な言語トークンを予測
k layerの平均!
利点2つ
1. 目的変数(targets)自身は事前に定義されず、それらの数も限定されない
2. 目的変数は文脈に応じる(contextualized; 文脈情報を考慮に入れる)
各目的変数の単一の埋め込みを学習するBERTスタイルのモデルとは異なる
(BERTスタイルモデルでは、)各目的変数はデータの中の特定の目的変数の全例を(学習に)必要とする
SSL in speech